感謝深智數位出版社的邀約!目前已經將相關內容集結成冊出書,拓展了其中的內容,朔造了一個能夠完全理解圖像生成式AI的框架,期許能以輕鬆幽默的方式讓大家了解圖像生成式AI相關的知識,並能夠藉由這樣的認知玩轉Stable Diffusion相關的擴散模型生成工具。
以整體的時間來說,這本書我花了大約半年時間才完稿,扣掉鐵人賽的準備與賽程的2個月時間,還花了4個月在撰稿上面,鐵人賽的內容大約有3萬字左右,但書籍完稿有8萬字(其實寫6萬字就足以出書了,但我覺得內容要夠完整才能放出來),代表內容增加為至少2倍,為了力求內容完善,這是必要的成本,雖然持續燒肝3個月其實並不容易(凌晨3~4點睡,一週至少5天),完稿的那一剎那差點沒激動到把筆電摔出窗外(咦
一言以蔽之,其實就是0到1的快速入門圖像生成式AI的書籍,幾乎沒有放公式,市面上目前也沒有類似書籍,其中羅列了大多數相關的擴散模型相關起源、技術、及發展。除了提供理論基礎以外,實務上也導入實際案例的操作以幫助學習,光講述道理沒啥鳥用,能實踐才是王道,期許讀者閱讀完本書後能實際應用該技術在自己的專案上。
另外與其他書不一樣的部分,就是有獨立的圖表目錄,方便後續快速查閱;還有就是最後的參考文獻,把整體技術及發展的資料詳細整理出來,將近150篇的參考資源,相信可以幫助到需要學習圖像生成式AI的朋友。
目前主要有三大流派,分別是:文生圖、圖像描述、圖文匹配,這些視覺領域的流派都能透過提示詞去強化其性能。
文生圖展示了提示詞生成新圖像的能力;圖像描述展示了多模態文字描述模型的能力;圖文匹配展示了適當文字與圖像的匹配程度,常見的代表是:CLIP。
目前SD發展的概況可以簡述為:SD -> SD XL -> SD XL Turbo -> SSD-1B -> Stable Cascade -> Stable Diffusion 3。其中Stable Diffusion 3具有生成輸入的提示詞內容能力。
讀者閱讀完本書後,應會具有以下收穫:
目前天瓏書局有早鳥預購價,歡迎多加利用:傳送門
電子書預購連結在此
其他通路請Google搜尋:圖像生成式AI的生存指南-以Stable Diffusion為例。
期待在書中與你相見~